ICCV2025—REGEN: 首个基于DiT的视频Tokenizer
在现有latent diffusion model的框架下,视频tokenizer的latent space对于视频生成的训练和推理速度有着决定性的作用。目前主流的视频tokenizer,比如MAGVIT-v2,采用基于3D-VAE的架构,实现在空间和时间维度
regen dit 视频tokenizer tokenize 2025-09-15 18:39 4
在现有latent diffusion model的框架下,视频tokenizer的latent space对于视频生成的训练和推理速度有着决定性的作用。目前主流的视频tokenizer,比如MAGVIT-v2,采用基于3D-VAE的架构,实现在空间和时间维度
regen dit 视频tokenizer tokenize 2025-09-15 18:39 4